查看原文
其他

小白生信学习记(二):服务器及其使用介绍

2017-01-12 生物女博士 生信媛

       上回说到小白刚进实验室,需要跟着师姐做转录组分析。小白心想,用我的笔记本是否可以分析转录组数据?


       但小白很快发现,数据量太大!师姐的拟南芥转录组数据一个测序文件就大概有6G,即便是压缩文件(gz格式)也有1.5G那么大,放不了几个测序文件,就该爆盘了。还有另一个很大的问题是,计算量!一般来说,普通电脑的配置对于分析像转录组这种计算量大的数据,普通电脑会因内存问题直接崩溃。


       所以,计算量大的生物信息学分析需要寻求更为强大配置的计算机。


       这个时候,你有几个选择:一,你可以自己买一台;二,租用商用服务器(如:各种某某云);三,大家合买共用一台服务器。

       一人买一台并不经济,利用率太低;目前也有实验室选择租用商用服务器;而小白所在的研究所的解决方案是,所里统一购置配置较高的若干台服务器,满足有不同信息处理需求的多个课题组,也有一些专门做生物信息分析的实验室会一个实验室拥有一台以上的服务器。

       那有了一台linux系统的服务器后,它又是怎么个运作方法呢?

       如图所示(参考资料1),图片最上方,是一台具有超强运算能力和存储能力的服务器。下边的是个人电脑。个人电脑可以通过网络登陆连接到服务器进行使用。



       

       如果是苹果系统,可以通过一个叫“终端”的东西,输入服务器地址,连到服务器上(当然,首先,你需要有一个账号密码)。而Windows系统也可以通过安装一些软件(Xshell 或者PuTTY等等)来实现这个功能。想象这些软件就像哆啦a梦的任意门,可以让你从你自己的电脑上,实现对远处的服务器的操作。好像还挺有意思的是不是?


       但使用者众多,就会带来一些问题:如果每个人都可以任意在服务器上修改存删,服务器很快就乱七八糟了。如若不小心误删关键文件,后果更是不堪设想。所以,就有了专门的管理员。管理员拥有最高的权限去删改与安装。

       而使用者,每个人都有自己的地盘。想象服务器是一个酒店,每个人都有自己的房间。你可以在自己的地方存放你的数据,作为文件的拥有者,你可以设置访问权限(比如,禁止访问等);你可以在你自己的地方安装一些你自己想用的程序并运行(但由于权限问题,软件安装通常会比较纠结,这个时候你可以求助管理员);你可以设置环境变量,方便你的日常使用等等。

       

       那么怎么开始使用呢?比较常见的问题可能有这么几个:

       1.我有一个数据,我怎么传到服务器?

       可以安装一个可以传输文件的软件,操作简单而直观。用过winSCP(Windows)和FileZilla(Mac系统或Windows系统皆可)都还不错。有服务器账号的朋友可以自己试试文件传输,而没有的朋友可以试试用上回让大家安装的Linux虚拟机。

  

       2.我想从网上下载一个数据,如何下载?

       比如小白想从TAIR上下载拟南芥的注释文件,他可以在网上先找到这个文件,得到这个文件的网址,然后用wget或者curl命令下载。

比如:wget http://www.arabidopsis.org/download_files/Genes/TAIR10_genome_release/TAIR10_gff3/TAIR10_GFF3_genes.gff

或者:curl -O http://www.arabidopsis.org/download_files/Genes/TAIR10_genome_release/TAIR10_gff3/TAIR10_GFF3_genes.gff

这些命令都有很多的参数,大家可以根据需要修改。比如curl中 O这个参数表示的是使得下载的文件名字跟远程的那个一样。


       3.我想安装一个软件,如何安装?安装完以后如何使用?

       这个部分,我之后在使用到RNAseq分析相关软件时候会再具体介绍。


      上次小白最后操作下来,其实仅仅新建了一个叫“xiaobai”的目录。

      小白于是把这个测序文件xiaobai.fq上传到服务器这个叫xiaobai的目录下:

      首先,进入这个文件夹:

      cd xiaobai 


      查看:

      ls -al:ls 就是list的意思,而加上-al可以详细列出所有文件信息(包括隐藏文件):


       重点说一下,第一列就是权限信息,一共有10个字符,第一个字母:“-”表示文件、d表示目录(文件directory的缩写)。剩下九个字符,每三个一组,第一组是文件拥有者的权限,第二组是与文件拥有者同群组的用户的权限,第三组是其他非本群组的权限。关于群组的概念,有兴趣的朋友移步这里http://cn.linux.vbird.org/linux_basic/0210filepermission_1.php(鸟哥的Linux私房菜第六章)。 rwx分别的意思是:读(r)、写(w)、执行(x),这是可以根据自己需要修改的。第五列是文件大小,默认单位是bytes(字节),这个单位也是可以根据需要修改的。最后一列就是文件或文件夹了。(参考资料2)。


       好了,确认xiaobai.fq已经传输完毕在自己所在文件夹后,小白想看看这个文件里面是什么内容。

       more xiaobai.fq

       或者

       less xiaobai.fq

       看了一眼后,小白想退出这个文件的阅读,直接输入q就可以了。

       q

       假如小白只是想看看开头:用head

       head xiaobai.fq

       如果确切地知道前10行,可以这么用:

       head -10 xiaobai.fq

       这里说一下,输入xiao之后,可以试试按下tab键,会有惊喜哦!

       同理,如果是想看文末,则用tail


       每个命令有那么多的参数,怎么记得住呢?一,你可以网上搜索,二,这些命令都有自己的说明书。

       比如像mv或者head这类常用的系统命令,你可以通过man mv 查看它的说明书哦。man就是manual的缩写。比如:

       man mv 

       好了,今天就到这里。谢谢大家。


       给大家作个剧透,关于服务器更多知识,我请到了一个专门管理服务器的小伙伴,他将在春节后给大家写一个服务器相关系列。大家鼓掌!!

       这两回给大家简单介绍了测序的基本原理、转录组测序的基础知识、服务器的基本原理以及Linux比较常见的命令的使用。从下回开始,我们将会正式进入RNAseq分析的实战。

       


参考资料:

参考资料1:鸟哥的Linux私房菜(第一章):http://cn.linux.vbird.org/linux_basic/0110whatislinux_1.php

参考资料2:鸟哥的Linux私房菜(第六章):http://cn.linux.vbird.org/linux_basic/0210filepermission_2.php


本文用到的测序文件可以在这里下载:https://share.weiyun.com/9fc17b19303dd0c570b02f3293a3ccde




欢迎关注,欢迎转发~




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存